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面向 不 平衡 分 类 的 IDP-SMOTE 重 采 样 算法 
盛 凯 ， 刘 忠 ， 周 德 超 ， 冯 成 旭 


(海军 工程 大 学 电子 工程 学 院 , 武汉 430033) 


摘 要 : 传统 的 ann 分 类 时 ， 容 易 导 致 少数 类 被 错 分 。 为 了 提高 少数 类 样本 的 分 类 准确 度 
提出 了 一 种 基于 改进 ep IDP-SMOTE。 首 先 ， 采 用 Box-Cox 办 大兴 则 由 其 尖 过 和亲 是 关 寺 
进行 改进 ， | 然后 ， 将 改进 的 密度 峰值 聚 类 算法 与 SMOTE 升 采样 算法 相 结合 ， 
去 除 噪声 数据 ， 并 基于 少数 类 样本 的 局 部 密度 和 邻近 距离 ， 在 子 类 的 范围 内 合成 采样 数据 。 该 算法 有 效 避 免 了 升 采 样 
导致 的 边界 模糊 ， 改 善 了 类 内 不 平衡 及 边 i 同时 实现 了 自动 聚 类 和 重 采 样 ， 防 止 了 人 为 因素 干 
扰 。 通 过 实验 对 比 ， 验 证 了 提出 算法 的 有 效 性 和 自 适 应 性 
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IDP-SMOTE resampling algorithm for imbalanced classification 


Sheng Kai, Liu Zhong, Zhou Dechao, Feng Chengxu 
(College of Electronic Engineering, Naval University of Engineering, Wuhan Hubei 430033, China) 


Abstract: When classifying imbalanced data, traditional classification algorithms are easy to misclassify the minority samples. 


In order to improve the classification accuracy of the minority samples, this paper proposed a novel resampling algorithm based 


on the improved density peaks clustering method, named IDP-SMOTE. First, improved density peaks clustering algorithm by 


utilizing Box-Cox transformation and o -rule for finding the clustering centers and outliers automatically; second, combined 


the improved density peaks clustering algorithm with SMOTE method. With removing the noisy data, the synthetic samples can 
be generated in the sub-class regions on the basis of the values of local density and nearest distance of the minority samples. 
The presented algorithm avoids the boundary ambiguity caused by over-sampling, improves the imbalance problem with-in class 
and reduces the learning difficulty of the boundary data. Meanwhile, it realizes automatic clustering and resampling, and avoids 
the interference of subjective factors. Through the contrast experiment, the proposed algorithm is effective and adaptive. 
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基本 平衡 ， 从 而 提高 少数 类 分 类 性 能 的 方法 。 简 单 的 随机 升 采 
样 通过 复制 少数 类 样本 使 得 两 类 数据 平衡 ， 但 这 可 能 会 导致 严 

分 类 是 机 器 学 习 和 数据 挖掘 领域 中 获取 知识 的 重要 手段 之 重 的 过 拟 合 现象 发 生 。2002 年 ，Chawla 等 人 外 提出 了 SMOTE 

， 其 目标 是 利用 类 别 已 知 数据 构建 分 类 模型 ， 并 对 类 别 未 知 升 采样 方法 。 它 首先 通过 KNN 算法 搜索 少数 类 中 每 个 样本 的 
数据 进行 预测 。 常 见 的 分 类 算法 通常 假定 用 于 训练 的 数据 集 各 ”个 最 近邻 样本 ,然后 在 与 这 些 邻 近 样 本 之 间 的 连 线 上 随机 取 点 ， 
类 平衡 ， 即 各 类 的 样本 数量 大 致 相等 。 但 是 在 获得 的 真实 数据 成 没有 重复 的 新 少数 类 样本 集合 。 但 是 该 方法 没有 考虑 样本 
中 ， 常 常 存在 某 个 类 别 的 样本 数 远 少 于 其 他 类 别 的 情况 ， 此 时 ”的 分 布 ， 在 邻近 样本 的 选择 上 也 具有 一 定 的 盲目 性 ， 导 致 生成 
以 最 大 总 体 分 类 精度 为 目标 的 分 类 算法 进行 训练 ， 新 样本 时 容易 造成 正 负 类 边界 模糊 以 及 插入 噪声 等 问题 。2008 
导 到 的 分 类 模型 往往 偏向 于 多 数 类 ， 增 大 了 少数 类 被 错 分 的 可 ”年 ，He 等 人 BJ 针对 少数 类 样本 分 布 不 均衡 问题 ,提出 了 基于 样 
性 。 然 而 ， 在 异常 检测 、 疾 病 诊断 等 实际 应 用 中 ， 少 数 类 通 ”本 密度 分 布 的 ADASYN 算法 ， 对 于 密度 小 的 少数 类 样本 合成 
常 更 加 受到 人 们 重视 ， 其 错 分 带 来 的 代价 也 更 为 严重 。 因 此 ， 更 多 的 新 样本 数据 ， 以 减少 少数 类 内 不 平衡 分 布 导致 的 偏差 。 
不 平衡 数据 的 分 类 问题 成 为 了 近年 来 机 器 学 习 的 一 个 研究 热点 四。 但 是 ， 该 方法 仍 会 导致 合成 的 采样 数据 落 在 多 数 类 的 分 布 范 上 

升 采样 是 通过 增加 少数 类 样本 ， 达 到 少数 类 与 多 数 类 样本 ”内 .为 了 解决 这 个 问题 ,多 种 基于 聚 类 的 采样 技术 相继 被 提出 。 
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例如 ，2011 年 ，Barua 等 人 中 提 出 了 基于 层次 聚 类 的 CBSO 算 
法 ; 2012 年 ，Bunkhumporpat 等 人 四 基于 DBSCAN 算法 提出 
了 DB-SMOTE 算法 ; 2014 年 , Cao 等 人 中 提出 了 基于 高 斯 混合 
模型 的 升 采样 算法 ; 2015 年 , Chen 等 人 中 提出 了 改进 的 基于 开 - 


means 聚 类 的 KM-SMOTE 算法 等 。 这 些 方法 由 在 少数 类 的 各 


DP 算法 虽然 不 再 需要 指定 聚 类 参数 ， 但 是 其 最 终 聚 类 中 
心 及 离 群 点 的 确定 (步骤 c)) 却 依赖 于 人 工 选择 。 针 对 此 问题 ， 
文献 [9] 采 用 模糊 规则 实现 了 聚 类 中 心 的 自动 判别 , 但 是 样本 点 
局 部 密度 和 邻近 距离 的 数据 分 布 与 样本 本 身 的 数据 分 布 相关 ， 


个 子 类 中 进行 升 采样 ， 但 是 计算 复杂 度 较 高 ， 且 均 需 要 提前 人 
工 设置 聚 类 参数 ， 这 对 于 处 理 分 布 未 知 的 数据 集 非常 困难 。 
针对 上 述 问题 ， 本 文 将 密度 峰值 聚 类 (clustering by fast 
search and find of density peaks, DP) 算法 与 传统 的 SMOTE 升 
采样 算法 有 机 结合 ,提出 了 一 种 新 的 重 采样 算法 IDP-SMOTE。 

首先 ， 本 文 对 DP 算法 进行 了 改进 ， 给 出 了 聚 类 中 心 和 离 群 点 
的 自动 判别 标准 ， 然 后 ， 根 据 改进 的 密度 峰值 聚 类 算法 对 各 类 
样本 聚 类 ， 并 去 除 噪声 ， 第 三 ， 为 防止 合成 的 少数 类 样本 落 入 
多 数 类 的 范围 内 ， 根 据 聚 类 结果 在 少数 类 的 子 类 中 合成 少数 类 


不 一 定 符合 正 态 分 布 。 本 文 在 此 基础 上 ， 引 入 统计 经 济 学 中 
的 Box-Cox 变换 59， 首先 将 局 部 密度 p, 和 邻近 距离 5 变换 为 
近似 正 态 分 布 ， 然后 ， 为 了 避免 密度 较 小 的 子 类 漏 检 ， 采 用 o 


样本 数据 。 考 虑 到 类 内 不 平衡 问题 以 及 边界 样本 对 于 分 类 更 为 
重要 ， 根 据 局 部 密度 对 每 个 少数 类 样本 的 升 采 样 权 重 进行 了 调 
整 ， 赋 予 了 少数 子 类 及 边界 附近 的 样本 更 高 的 升 采样 权重 。 
1 ”改进 的 密度 峰值 聚 类 算法 

Rodrigues 等 人 中 于 2014 年 提出 了 DP 聚 类 算法 ,该 算法 基 
于 两 条 基本 假设 ,一 是 聚 类 中 心 是 周围 邻居 点 中 密度 最 大 的 点 ; 


二 是 不 同 聚 类 中 心 之 间 的 距离 较 远 。 其 核心 步 又 如 下 : 
多 计算 每 个 样本 点 的 局 部 密度 p 。 其 计算 公式 如 下 ; 


P=2X( 一 4) (1) 


其 中 :4 表示 样本 x 与 之 间 的 距离 ，4 为 截断 距离 ， 通 常 可 
选取 为 所 有 样本 间距 升序 排列 的 1% 或 2% 分 位 数 ， x(x) 为 截 
断 函 数 : 


(= 1, x<0 
人 0, x>0 0O) 


当 样本 点 数量 较 少 时 ， 可 采用 指数 核 计算 局 部 密度 ， 其 公 
式 为 


Ny da 

p= 2 exp(-(3)) G3) 
b) 计 算 每 个 样本 点 与 最 近 高 密度 点 之 间 的 距离 邻近 距 

离 ) 5 。 对 于 全 局 密度 最 大 的 点 x， 其 邻近 距离 为 相对 x 的 


全 局 最 大 距离 。 因 此 ，5 的 计算 公式 为 


min(d,), if 3 st.p,>p, 


max(d,), otherwise. 
jpj>p: 


oO) 分 别 以 p 和 5 作为 模 坐 标 和 纵 坐 标 绘制 决策 图 。 由 于 至 
类 中 心 的 局 部 密度 p 和 邻近 距离 5 都 比较 大 ,而 离 群 点 的 邻近 
距离 5 较 大 ， 局 部 密度 p 非常 小 。 因 此 ， 可 通过 决策 图 选 定 聚 
类 中 心 和 离 群 点 。 
qd) 指派 除了 陵 类 中 心 点 和 离 群 点 之 外 的 样本 类 别 ， 使 之 与 
所 有 局 部 密度 大 于 自己 的 点 中 ， 距 离 最 近 的 样本 类 别 相同 ， 完 


准则 定义 聚 类 中 心 和 噪声 点 的 判别 规则 。 
假设 有 正 序列 X = {x ,xx } ，Box-Cox 变换 公式 如 下 : 
x 一 1 
| Az0 (5) 
In(x), 4=0 
其 中 : 4 为 变换 参数 ， 可 采用 最 大 化 对 数 似 然 函数 确定 其 最 优 
值 : 
Face | 袜 S | ro 攻 
其 中 ， FW- 


定义 聚 类 中 心 和 噪声 点 的 判别 规则 如 下 : 
EC,=[5'>1(56)+3:0(O)MNp' up) -opY)] (7) 
EN =[6'>1(56)+2.0(O) Np < uP) -2:0(p)] (8) 
其 中 ，6' 、p' 为 经 Box-Cox 变换 后 的 5 和 jp 值 ，EC 表示 聚 
类 中 心 ， EN 表示 噪声 数据 ， 表示 均值 ，o 表示 标准 差 。 
此 ， 改 进 的 DP 算法 如 算法 1 所 示 。 
算法 1: Improved-DP 
Input: 待 聚 类 数据 集 DD 


Onutput: 类 别 标号 idxC， 局 部 密度 p ,邻近 距离 9 


procedure: 

1. 计算 所 有 样本 点 两 两 之 间 的 距离 4 ; 

2. 将 d 从 小 至 大 排序 , 取 民 的 1% 或 2% 分 位 数 作为 截断 距离 4 ; 

3. 根据 式 (1)~(4) 计 算 每 个 点 的 局 部 密度 p 及 邻近 距离 5 ; 

4. 根据 式 (5)(6) 对 p 和 5 进行 Box-Cox 变换 ， 得 到 p'! 和 g'; 

5. 根据 式 (7) (8) 确 定 聚 类 中 心 EC 和 噪声 点 EN ， 标 记 idxC; 

6. 指派 其 他 样本 点 的 类 别 ， 完 成 聚 类 过 程 。 

End 

Improved-DP 算法 的 输入 数据 只 有 待 聚 类 的 数据 集 D.， 输 
出 数据 包括 每 个 样本 点 的 类 别 标号 idxC , 每 个 点 的 局 部 密度 p 

邻近 距离 5 。 图 1 给 出 了 在 部 分 数据 集中 Improved-DP 算法 

的 聚 类 效果 ， 其中: (a)(e) 分 别 是 D31 数据 集 和 Spiral 数据 集 的 
样本 分 布 情况 ; (b)( 有 DD 分别 是 D31 和 Spiral 数据 集中 样本 点 邻近 
距离 的 分 布 情况 ; (c)(g) 分 别 是 经 过 Box-Cox 变换 后 的 邻近 距离 
分 布 情况 ， 可 见 经 过 调整 后 ， 更 加 符合 正 态 分 布 ，(d)(h) 展 现 了 
最 终 的 聚 类 结果 ， 图 中 聚 类 中 心 点 和 离 群 点 分 别 用 符号 人 和 六 
表示 。 可 见 ，Improved-DP 算法 聚 类 效果 良好 ， 且 具有 较 强 的 
自 适应 性 。 
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(e) Spiral 原始 数据 集 


0 5 10 5 


(D 样本 点 的 8 分 布 


2 ”基于 Improved-DP 的 重 采样 算法 


为 了 能 够 根据 数据 样本 分 布 自动 确定 子 类 , 并 在 少数 类 
的 子 类 内 部 进行 升 采样 ， 且 避免 类 内 不 平衡 及 噪声 数据 的 影 
啊 ， 本 节 提 出 了 一 种 基于 Improved 
据 重 采样 算法 IDP-SMOTE， 如 算法 2 所 示 。 


算法 2: IDP-SMOTE 
Input: 训练 集 D， 升 采样 系数 p 
Output: 重 采 样 训练 集 乙 ， 


mple 
procedure: 
1. 定义 Ds 与 Di 分 另 


类 ( 负 类 ) 子 集 ; 


为 训练 集 D 


2. 对 各 个 类 进行 Improved-DP 聚 类 ， 排 除 噪声 点 ， 获 得 相应 子 


类 及 各 样本 点 的 p 和 5 ; 


3. 确定 少数 类 的 采样 总 数量 G。 根 据 去 除 噪声 点 后 的 多 数 类 样 
本 数量 由 和 少数 类 样本 数量 页 ， 可 和 人 


中 少数 类 《〈 正 类 ) 子 集 和 多 数 


租 : 


G=0m,—m,)xp 


其 中 ，p e[0,1] 为 升 采样 系数 。 当 


集中 的 正 负 类 样本 完全 平衡 ; 


B=1.0 时 表示 升 采样 后 训练 


4. 确定 少数 类 各 个 子 类 的 采样 数量 G : 


1 nm， 
6- 元 六 je 


其 中 ， 为 少数 类 子 类 的 个 数 ， mm 为 第 i 个 子 类 的 样本 数 ; 


5. 计算 少数 类 中 每 个 样本 点 的 采样 权重 x: 


wp 
p. J p; 
6. 计算 少数 类 中 每 个 样本 的 升 采 样 数量 g : 
8 7xC 


7. 少数 类 样本 升 采样 : 


7.1. 对 于 每 个 少数 类 样本 x ,根据 其 邻近 距离 5 查找 x 所 在 子 


-DP 聚 类 算法 的 不 平衡 数 


(10) 


UD) 


(12) 


:面向 不 平衡 分 类 的 IDP-SMOT 
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(g) Box-Cox 变换 后 8 分 布 


图 1 Improved-DP 算法 聚 类 效果 


类 万 中 的 全 部 邻近 样本 ; 


(h) Spiral 聚 类 结果 


7.2. 随机 选择 x 的 一 个 邻近 样本 x ， 根 据 式 (11) 随 机 合成 一 个 
少数 类 样本 s。， 并 重复 执行 g 次 ; 


end 


Ss=x+rand(0,lD) * (x, —x) 


8. 生成 重 采样 后 的 训练 


已 De。 


(13) 


nple © 


根据 第 2 节 的 所 述 ，Improved-DP 算法 不 但 能 够 确定 聚 


类 艇 数 、 聚 类 中 心 ， 也 能 发 现 噪声 点 。 基 于 此 ， 本 文采 用 
Improved-DP 算法 分 别 对 多 数 类 和 少数 类 样本 进行 聚 类 ， 并 
排除 噪声 数据 对 分 类 的 影响 ， 同 时 ， 保 留 少数 类 样本 聚 类 时 


计算 所 得 的 邻近 距离 5 及 局 部 密度 p 等 参数 (第 2 步 ); 第 


3 步 和 第 4 步 考 虑 了 类 内 不 平衡 对 分 类 的 影响 ， 
FPF 包含 的 样本 数量 的 反比 作为 该 子 类 
研究 表明 ， 边 界 附近 的 样本 对 于 分 类 更 


[6] 的 思想 ,将 每 个 子 类 
的 升 采样 数量 ， 另 


为 重要 辐 ， 因 此 在 升 采 相 


借鉴 文献 


时 有 必要 对 边界 附近 的 样本 赋予 更 
高 的 采样 权重 。 由 于 p 值 越 小 ， 表 示 其 样本 x 越 可 能 处 于 边 
界 位 置 ， 因 此 在 算法 第 5 步 中 ,将 p 的 倒数 作为 每 个 少数 类 


样本 x 的 采样 权重 ， 并 进行 归 一 化 处 理 ， 可 知 ，》 x,=1; 然 


后 ,于 第 6 步 中 计算 出 各 个 少数 类 样本 对 应 的 升 采样 数量 8 ; 


第 7 步 借 鉴 了 CBSO 算 


选择 子 类 内 邻近 样本 时 采 月 


以 


去 [4] 的 升 采 样 过程 , 不 同 的 是 本 文 在 


的 是 距离 阐 值 5 ,而 不 是 NN 算 


法 中 的 固定 个 数 ， 从 而 避免 了 磊 值 选取 中 的 人 工 干 预 。 


3 实验 


3.1 数据 集 


本 文选 取 UCI 机 器 学 习 数 据 库 中 中 的 7 个 数据 集 进行 
测试 , 分别 为 Abalone、German、Glass、 Leaf、 Letter、 Vehicle 


和 Wine。 上 


于 本 文 只 针对 两 类 数据 进行 测试 , 需要 对 数据 集 


中 的 多 类 数据 进行 转换 。 测 试 所 用 数据 集 的 描述 如 表 1 所 示 。 


录用 稿 
表 1 数据 集 描述 
数据 集 少数 类 多 数 类 不 平衡 比 
Abalone 类 :18” 类 '9 42:689 
German 类 "bad， 其 他 300:700 
Glass 类 '5,6,7 其 他 51:163 
Leaf 类 '12,13,14， 其 他 37:303 
Letter[1] 类 'A,B,C,D? 其 他 3096:16904 
Letter[2] 类 'D’ 其 他 805:19195 
Vehicle 类 ‘Opel 其 他 212:634 
Wine 类 ‘1 其 他 59:119 
3.2 性 能 评估 指标 
在 评估 不 平衡 数据 的 分 类 性 能 时 ， 常 用 的 评价 指标 包括 


采用 F-measure、G-means 和 AUC 等 {1,6F-measure 和 G-means 


的 定义 需要 用 到 混淆 和 矩阵 的 概念 ， 如 表 2 所 示 。 
表 2 混淆 矩阵 
预测 结 
真实 类 别 es - - - 
正 类 ( 少 类 ) 负 类 (多 类 ) 
正 类 ( 少 类 ) TP FN 
负 类 (多 类 ) FP TN 


类 似 的 ， 


如 果 一 个 实例 为 正 类 
(TP), 如 果实 例 是 负 类 而 被 预测 为 了 
其 余 两 种 情况 分 别 


且 也 被 预测 为 正 类 ， 即 为 真正 类 


FE 类 , 称 之 为 假 正 类 (FP )， 
为 假 负 类 (FN) 和 真 负 类 (TN)。 


F-measure 是 一 种 针对 少数 类 识别 性 能 的 评价 准则 , 其 定义 如 


等 看 待 查 全 率 Recall 和 查 # 


TP 


F -measure= 


， Precision = 


Recall : Precision 


(14) 


Recall + Precision 


I 。F-measure 同 


TP+rFP 


住 率 Precision 对 分 类 器 评测 的 贡 


F 衡 数据 分 类 效果 的 准则 ， 其 定 


(15) 


。G-means 综合 考虑 


献 。 只 有 Recall 和 Precision 的 值 均 较 高 时 ，F-measure 值 才 
能 较 大 。 
G-means 是 一 种 衡量 不 3 
义 如 下 : 
G — means = VTPR.FPR 
其 中 : TPR- 人, FpR=_ 
TP+FN TN+FP 
了 两 类 的 分 类 准确 率 。 如 果 分 类 器 偏向 于 某 一 类 , 则 G-means 
值 将 很 小 。 


器 性 能 的 方法 。 它 表示 
线 的 线 下 


Characteristic ) 上 


另外 , AUC 也 是 一 种 非 


常 具有 


AN 


区 分 度 的 评价 不 平衡 分 类 
的 是 ROC 
只 ， 是 代替 ROC | 


( Receiver Operating 


线 的 一 种 定 
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量 描述 方法 。 AUC 的 取 值 范围 在 0 和 1 之 间 , 取 值 越 大 说 明 


分 类 器 性 能 越 好 。 
3.3 ”实验 结果 


本 文采 


随机 森林 分 类 算法 对 本 文 提 出 的 重 采样 方法 进 
行 测试 和 评价 , 并 与 SMOTE 算法 、 KM-SMOTE 算法 和 DB- 
SMOTE 算法 等 升 采 样 方法 进行 对 比 。 其 中 , 分 类 算法 采用 基 
于 Python 的 scikit-learn 机 器 学 习 包 [12] 中 的 标准 


模型 和 默认 


参数 。 重 采样 算法 中 , SMOTE、KM-SMOTE 以 及 DB-SMOTE 


的 最 近邻 系数 均 设置 为 k=5; 设 
c= 2; 设置 DB-SMOTE 
本 数 MinPts 二 5; 所 有 升 采样 算法 的 升 采样 比例 均 设置 为 
B=1。 分 类 器 性 


平衡 分 关 


KM-SMOTE 的 聚 类 系数 
或 内 最 少 样 


的 领域 半径 == 0.5， 邻 


F-measure、G-means 和 AUC 等 不 


能 的 采用 


中 党 


j 的 指标 进行 评价 。 每 次 实验 随机 选取 75% 的 


各 类 样本 作为 让 


复 实验 ， 


获得 各 


练 集 ， 剩 余 样本 作为 测试 集 。 通 过 100 次 重 
个 指标 的 平均 值 ， 其 结果 如 表 3 所 示 。 


根据 实验 结果 可 得 ，SMOTE 及 改进 方法 在 大 多 数 不 平 
衡 数 据 集中 都 比 直 接 采 


] 分 类 算法 分 类 性 能 更 高 。 然 而 ，1 


数 的 设 定 严重 依 
设置 不 准确 时 ， 容 易 造 成 聚 类 结果 与 实际 偏差 较 大 。 这 些 问 
题 都 可 能 导致 部 


于 SMOTE 算法 在 插值 时 没有 考虑 样本 的 分 布 ; KM-SMOTE 
和 DB-SMOTE 算法 虽然 考虑 了 子 类 分 布 问题 ， 


是 项: 洲 会 
但 是 聚 类 参 


屋 程 度 。 当 参数 


赖 于 研究 人 员 对 数据 集 的 掌 


分 合成 样本 落 在 多 数 类 的 范围 内 ， 从 而 影响 


分 类 学 习 效果 ， 


SMOTE 采样 算法 


参数 的 影响 ， 同 


至 导致 分 类 性 能 更 低 。 本 文 提出 的 IDP- 
聚 类 和 选择 邻近 样本 时 避免 了 主观 输入 
时 去 除 样本 噪声 ， 并 通过 调整 少数 类 样本 的 


类 内 不 平衡 和 边界 数据 不 容易 被 学 习 等 问题 。 


这 些 措施 使 得 IDP-SMOTE 采样 算法 在 对 不 平衡 数据 分 类 时 


有 更 强 的 适应 性 ， 在 所 测 
较 明 显 ， 总 体 优 胜 次 数 最 高 。 


试 的 各 个 数据 集中 提升 效果 都 比 


4 ”结束 语 

针对 不 平衡 数据 的 分 类 问题 , 本 文 提 出 了 一 种 新 的 重 采 
样 算法 IDP-SMOTE 。 该 算法 能 够 根据 数据 的 空间 分 布 , 更 加 
智能 的 合成 少数 类 样本 ， 从 而 提高 不 平衡 数据 的 分 类 性 能 。 
相 比 之 前 的 多 种 采样 算法 ， 本 文 提出 的 算法 同时 具有 以 下 优 
势 : 1、 采 用 Improved-DP 算法 进行 聚 类 ， 聚 类 簇 不 受 空 间 形 


状 限制 ， 且 避免 了 手动 输入 参数 造成 的 主观 因素 干扰 ; 2、 吻 
除 各 类 的 噪声 数据 ， 避 免 噪声 干扰 ; 3、 在 少数 类 的 子 类 内 部 


进行 升 采样 ,避免 了 合成 的 少数 类 样本 落 入 多 数 类 的 范 目 


问题 的 


在 实际 数据 集中 


中 


tr 


4、 通 过 调整 采样 系数 ,改善 了 类 内 不 平衡 和 少数 类 边界 样本 
难以 学 习 等 问题 ， 


对 多 分 类 


对 各 类 不 平衡 数据 的 适应 性 更 强 。 未 来 可 
采样 策略 进行 研究 ， 使 本 文 提 出 的 算法 能 
得 到 更 广泛 的 应 用 。 


/< 证 | 
MOTE 


A 


C | \ 
面向 不 平衡 分 类 的 IDP-S 


-| 
上- | 
重 米 样 算 ; 


录用 稿 盛 ” 凯 ， 等 : 
表 3 基于 不 同 采样 方法 的 分 类 器 性 能 比较 
数据 集 评价 标准 Base SMOTE KM-SMOTE DB-SMOTE IDP-SMOTE 
F-measure 0.2624 0.3680 0.3660 0.3548 0.3821 
Abalone G-means 0.3706 0.5910 0.5930 0.5819 0.6556 
AUC 0.5814 0.6689 0.6683 0.6614 0.7048 
F-measure 0.4264 0.3533 0.3603 0.0513 0.4825 
German G-means 0.5420 0.4788 0.4841 0.1628 0.5936 
AUC 0.6227 0.5928 0.5968 0.5104 0.6534 
F-measure 0.8816 0.8840 0.8819 0.8839 0.8915 
Glass G-means 0.9136 0.9244 0.9285 0.9095 0.9336 
AUC 0.9221 0.9233 0.9260 0.9137 0.9346 
F-measure 0.4841 0.6370 0.6290 0.6390 0.6046 
Leaf G-means 0.5774 0.7890 0.7817 0.7835 0.7853 
AUC 0.6729 0.8071 0.8011 0.8033 0.8014 
F-measure 0.9368 0.9365 0.9401 0.9377 0.9532 
Letter[1] G-means 0.9429 0.9450 0.9462 0.9461 0.9558 
AUC 0.9444 0.9462 0.9475 0.9474 0.9561 
F-measure 0.8981 0.9220 0.9221 0.9232 0.9139 
Letter[2] G-means 0.9118 0.9433 0.9467 0.9488 0.9377 
AUC 0.9156 0.9449 0.9482 0.9436 0.9396 
F-measure 0.4834 0.4995 0.4720 0.4934 0.5343 
Vehicle G-means 0.6105 0.6466 0.6231 0.6395 0.6855 
AUC 0.6574 0.6667 0.6495 0.6628 0.6938 
F-measure 0.9752 0.9768 0.9762 0.9714 0.9780 
Wine G-means 0.9766 0.9735 0.9815 0.9755 0.9839 
AUC 0.9802 0.9815 0.9813 0.9749 0.9843 
总 体 优 胜 次 数 0 2 1 3 18 
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